[Workshop] Data foundations and Amazon Q Business generative AI workshop に参加しました #PEX302 #AWSreInvent
re:Invent 2024 現地参加組のカスタマーサクセス部 運用支援チームのいたくらです。
「PEX302 | Data foundations and Amazon Q Business generative AI workshop」に参加したのでレポートします。
セッション情報
- セッション ID : PEX302
- タイトル: Data foundations and Amazon Q Business generative AI workshop
- スピーカー: Sudhir Gupta, Angel Conde
- レベル: 300 – Advanced
ワークショップの概要
Successful generative AI projects are built on solid data foundations that include data quality, data privacy, and data governance tools and techniques. Join this workshop to get hands-on experience building a chatbot for a regulated scenario, such as financial services. Gain insights on data enrichment and cataloging tools, and expose your chatbot to customer interaction with Amazon Q Business. You must bring your laptop to participate. This workshop is intended for AWS Partners.
成功する生成AI(生成型AI)プロジェクトは、データ品質、データプライバシー、データガバナンスのツールと技術を含む、強固なデータ基盤の上に構築されています。このワークショップに参加して、金融サービスなどの規制のあるシナリオ向けのチャットボット構築を実践的に体験してください。データの充実化とカタログ化ツールについての知見を得て、Amazon Q Businessを使用してチャットボットをお客様とのやり取りに活用します。参加にはノートパソコンの持参が必要です。このワークショップはAWSパートナー向けです。
内容
アジェンダ
アジェンダは以下の通りです。
※ アジェンダのタイトルは英語でしたが、本ブログでは日本語訳で記載しています。
- データの取り込みと処理
- Amazon Textract によるインテリジェントなドキュメント処理
- AWS Glue によるデータ処理
- AWS Glue によるデータ品質と機密データの編集
- AWS Glue によるデータ品質(オプション)
- AWS Glue で機密データを検出して編集する
- Amazon Q Business を使用したチャットボットの構築
- アプリケーションユーザー構成
- Amazon Q Business で ChatBot アプリを構成する
- データソースの設定
- ChatBot アプリケーションとの会話
- 管理制限とガードレールを構成する(オプション)
金融サービス会社の開発者という設定で、堅牢なデータ基盤に支えられた AI 搭載の会話型アプリケーション(ChatBot)の作成を実施するというワークショップでした。
作成するアプリケーションは請求書や銀行取引明細書に関する顧客の問い合わせに回答するというものです。
データの取り込みと処理
以下の流れでデータの取り込みと処理を実施しました。
- Amazon Textract によるインテリジェントなドキュメント処理
- AWS Glue によるデータ処理
Amazon Textract を使用したドキュメント処理については、Amazon SageMaker Studio を使用して JupyterLab ワークスペースを作成し、そこにあらかじめ準備されていたワークショップ資料(zip ファイル)をアップロード&解凍し、完全なデータセットを処理して S3 にアップロードするバッチジョブを実行しました。
また、画像からデータを抽出するための Amazon Textract の使用方法を理解するために用意されていた対話型ジョブを実行しました。
↓ このような文書を画像ベースで読み込んで、
↓ 指定した情報を抽出するクエリを設定、実行することで画像から情報を抽出することができました。
対話型ジョブを進める中で、Textract Query は、給与明細や銀行取引明細書のように、文書タイプ間でレイアウトが大きく異なる複雑な文書でも高い精度を発揮できることがわかりました。
Glue によるデータ処理については、Glue クローラーを使用してデータを自動検出し、カタログ化しました。
その後、あらかじめ準備されていた Glue ノートブックを使用して生データからデータ変換およびクリーンアップしました。
AWS Glue によるデータ品質と機密データの編集
以下の流れで AWS Glue によるデータ品質と機密データの編集を実施しました。
- AWS Glue によるデータ品質(オプション)
- AWS Glue で機密データを検出して編集する
ワークショップではオプションとなっていますが、本番環境のワークロードには data quality rulus を実装することが強く推奨されます。
今回はワークショップテキストに記載されていた通りに、カラムに欠損値がないことを確認するルールや、カラムの値の長さが既定の文字数に収まっていることを確認するルールなどを追加実装しました。
このようなルールを実装することでデータの一貫性の確保ができて、データ品質を維持できるようになるんですね。
次に、AWS Glue Studio のネイティブ機能を使用して、テーブルの 1 つで機密データを検出、編集、結果を別テーブルに保存するように設定しました。
今回は Visual ETL を使用して ETL ジョブを作成しました。
ETL ジョブを保存、実行して成功するところまで確認できました。
Amazon Q Business を使用したチャットボットの構築
以下の流れで Amazon Q Business を使用したチャットボットの構築を実施しました。
- アプリケーションユーザー構成
- Amazon Q Business で ChatBot アプリを構成する
- データソースの設定
- ChatBot アプリケーションとの会話
- 管理制限とガードレールを構成する(オプション)
今回はアプリケーションユーザーとして、IAM Identity Center(以降 IIC)ユーザーを使用しました。
ワークショップ用にあらかじめ用意されていた IIC ユーザーを使用するため、サインインの準備をしました。
ChatBot アプリは、あらかじめ用意されており、ワークショップ参加者は ChatBot アプリの構成としては Web エクスペリエンスの有効化やユーザーアクセス権の変更などを実施しました。
データソースとして S3 を追加して、同期が完了することでチャットボットの準備が完了しました。
準備ができたので、アプリケーションの Web エクスペリエンスの URL から会話を開始します。
最初に IIC のサインインを求められた後、Q Business にアクセスできました。
例えば、「List down the customer names」と質問すると、以下の結果が返ってきました。
データソースを参照して回答できていそうです。
最後にガードレールを構成しました。
オプションですが、これも前述のデータの品質と同様、本番環境のワークロードには実装することが強く推奨されます。
ブロックする単語として「account number」を指定して、この単語を含む質問に応答せず、応答でもこれらの単語に言及しないように設定しました。
また、トピックコントロールを作成し、アプリケーションから回答するチャットメッセージで制限したいフレーズ(今回は「Investment advice」)を設定しました。
ガードレール設定後、「What factors should be considered before purchasing a stock?」と質問すると、先ほど設定した「Investment advice」に該当すると判断し、以下の結果が返ってきました。
「ご要望に応えるための関連情報を見つけることができませんでした。私が知っている情報に基づいて回答を生成しています...」と、回答に対して制限をかけられたことがわかりました。
最後に
このワークショップで最終的に実装した AWS 構成図は以下です。
データ取り込み(画像からデータを抽出)から処理、さらにそのデータをチャットボットのデータソースにするという、AWS 認定の AIF、MLA、MLS あたりの勉強をしているときに見るようなユースケースだったので、実際に体験できて楽しかったし勉強になりました。
この記事がどなたかのお役に立てれば幸いです。
アノテーション株式会社について
アノテーション株式会社はクラスメソッドグループのオペレーション専門特化企業です。
サポート・運用・開発保守・情シス・バックオフィスの専門チームが、最新 IT テクノロジー、高い技術力、蓄積されたノウハウをフル活用し、お客様の課題解決を行っています。
当社は様々な職種でメンバーを募集しています。
「オペレーション・エクセレンス」と「らしく働く、らしく生きる」を共に実現するカルチャー・しくみ・働き方にご興味がある方は、アノテーション株式会社 採用サイトをぜひご覧ください。